随着数据驱动的系统越来越大规模部署,对历史上边缘化的群体的不公平和歧视结果引起了道德问题,这些群体在培训数据中的代表性不足。作为回应,围绕AI的公平和包容性的工作呼吁代表各个人口组的数据集。在本文中,我们对可访问性数据集中的年龄,性别和种族和种族的代表性进行了分析 - 数据集 - 来自拥有的数据集,这些数据集来自拥有的人。残疾和老年人 - 这可能在减轻包含AI注入的应用程序的偏见方面发挥重要作用。我们通过审查190个数据集的公开信息来检查由残疾人来源的数据集中的当前表示状态,我们称这些可访问性数据集为止。我们发现可访问性数据集代表不同的年龄,但具有性别和种族表示差距。此外,我们研究了人口统计学变量的敏感和复杂性质如何使分类变得困难和不一致(例如,性别,种族和种族),标记的来源通常未知。通过反思当前代表残疾数据贡献者的挑战和机会,我们希望我们的努力扩大了更多可能将边缘化社区纳入AI注入系统的可能性。
translated by 谷歌翻译